模态

多模态AI狂飙,超能小度如何重构智能硬件

经过2024年GPT-4o与Gemini 1.5的技术升级,多模态大模型具备了从理论研究走向应用落地的可能。AI不再局限于文本生成或语音问答,还能够看懂画面、感知环境、主动响应。AI硬件终于不必只是极客群体的“玩具”,而是能真正进入大部分人的生活。也因此,这一

模态 智能 眼镜 李莹 c1200 2025-11-17 22:16  3

上海交大突破:单目视觉实现立体级深度估计

传统的解决方案就像给盲人配备探路杖一样,需要大量人工标注的深度数据进行训练,成本高昂且难以获取。而自监督学习方法虽然不需要标注数据,但就像仅凭触觉摸索前进,效果往往不够理想。研究团队敏锐地意识到,如果能让计算机像人类一样,既有全局的语义理解能力,又具备精细的空

模态 视觉 dino 相对误差 单目 2025-11-17 21:33  3

Siri画饼,小度上菜

IDC最新发布的报告显示,2025年上半年,全球智能眼镜市场出货量达到406.5万台,同比增长64.2%,预计到2029年更将突破4000万台。其中,中国更被视为是拉动全球智能眼镜增长的主要市场,预计五年复合增长率将高达55.6%,增速位居全球首位。

模态 眼镜 siri 李莹 siri画饼 2025-11-17 17:31  3

速递|文心5.0横空出世,百度押注原生全模态,LMArena最新榜单冲上全球第二、中国第一

在今天的百度世界大会上,百度终于把压了许久的“底牌”掀开——文心大模型5.0。这是百度第一次真正意义上对外亮明自己的“原生全模态”路线,一个参数量高达2.4 万亿的庞然大物,从训练第一天起,就是按照“人类理解世界的方式”来建模的。

模态 百度 文心 速递 lmarena 2025-11-14 01:40  2

KAIST突破:多模态提示优化提升AI视觉理解

KAIST的研究团队敏锐地发现了这个问题。他们注意到,虽然多模态大型语言模型(MLLMs)已经能够同时处理文字、图像、视频甚至分子结构等多种类型的信息,但目前的提示优化方法仍然局限在纯文字领域。这就像是给一台既能播放音频又能显示视频的设备,却只提供音频文件一样

模态 视觉 mpo kaist mpo框架 2025-11-14 21:54  3

小度科技正式发布多模态AI智能助手“超能小度”

在日前的百度世界大会“大模型如何重塑智能硬件新体验”分论坛上,小度科技正式发布其全新升级的多模态AI智能助手——超能小度,并宣布全系、全量、全生态上线。此外,搭载了超能小度的硬件新品——小度AI眼镜Pro与小度智能摄像机C1200三摄版和C800视频通话版、小

模态 智能 音箱 科技 李莹 2025-11-14 18:13  3